mpo框架

KAIST突破：多模态提示优化提升AI视觉理解

KAIST的研究团队敏锐地发现了这个问题。他们注意到，虽然多模态大型语言模型（MLLMs）已经能够同时处理文字、图像、视频甚至分子结构等多种类型的信息，但目前的提示优化方法仍然局限在纯文字领域。这就像是给一台既能播放音频又能显示视频的设备，却只提供音频文件一样